2024-ACL-[MAGE]Machine-generated Text Detection in the Wild

剽窃やプロパガンダなどにLLMの生成された文章が使われる。なので、LLM生成の文章と人間生成の文章の検出をしたい。

だが先行研究では限られたドメイン関連や、限られたモデルにのみ通用する手法がほとんどであった。だが実際の検出の現場では生成するモデルも知らないし、関連する分野のドメインも不明である。

この研究は

これらについて、様々なタスクについてLLMでの生成を考え、大きなテストベッドを構築した。

これで実験を行い、いくらOut of Distributionを考慮して訓練させた識別器でも、見たことのないドメインでの人間の書いたドキュメントの実に62%をLLM製と誤って判断してしまう。

だが、これはドメイン内のわずか0.1%のデータをを用いて学習させるだけで、誤判断率をめちゃくちゃ下げられる。

先行研究では、言語モデル生成の文章の識別ではn-gram頻度、エントロピーの値、当惑度、負の曲率領域などがある。しかし、これらは基本的にwhite boxでの応用である。
Black boxでの応用では、ほとんどは特定のドメインに絞ったものである。

「意見文」、「ニュース記事」、「質問と回答」、「ストーリー生成」、「常識からの推論」、「知識図」、「科学論文」の7つのタスクについての、生成された文章の検出を目指す。

LLMは27種類もの大量のものを使った。

プロンプトについては

PLMやLongFormer, GTLR, FastTextを使う。

以下の8個の設定について実験した。

これは通常のChatGPTと人間のアノテーターの識別能力。ランダムより少し良いだけ。

特定のドメイン、特定のLLMを指定すると非常に高い性能があるとわかる。